% Version control information:
%$HeadURL: http://practicas-spss.googlecode.com/svn/trunk/regresion_lineal_simple/regresion_lineal_correlacion.tex $
%$LastChangedDate: 2010-09-27 14:37:11 +0000 (Mon, 27 Sep 2010) $
%$LastChangedRevision: 3 $
%$LastChangedBy: asalber $
%$Id: regresion_lineal_correlacion.tex 3 2010-09-27 14:37:11Z asalber $

\chapter{Regresión Lineal Simple y Correlación}

\section{Fundamentos teóricos}
\subsection{Regresión}
La \emph{regresión} es la parte de la estadística que trata de determinar la
posible relación entre una variable numérica $Y$, que suele llamarse
\emph{variable dependiente}, y otro conjunto de variables numéricas, $X_1,
X_2,\ldots,X_n$, conocidas como \emph{variables independientes}, de una misma
población. Dicha relación se refleja mediante un modelo funcional
$y=f(x_1,\ldots,x_n)$.

El caso más sencillo se da cuando sólo hay una variable independiente $X$, y
entonces se habla de \emph{regresión simple}. En este caso el modelo que
explica la relación entre $X$ e $Y$ es una función de una variable $y=f(x)$.

Dependiendo de la forma de esta función, existen muchos tipos de regresión
simple. Los más habituales son los que aparecen en la siguiente tabla:
\begin{center}
\begin{tabular}{|l|c|}
\hline
 Familia de curvas       &     Ecuación genérica      \\
\hline\hline
 Lineal                  &          $y=a+bx$          \\
\hline
 Parabólica              &       $y=a+bx+cx^2$        \\
\hline
 Polinómica de grado $n$ & $y=a_0+a_1x+\cdots+a_nx^n$ \\
\hline
 Potencial               &       $y=a\cdot x^b$       \\
\hline
 Exponencial             &     $y=c\cdot a^{bx}$      \\
\hline
 Logarítmica             &       $y=c\log_abx$        \\
\hline
\end{tabular}
\end{center}

Para elegir un tipo de modelo u otro, se suele representar el \emph{diagrama de
dispersión}, que consiste en dibujar sobre unos ejes cartesianos
correspondientes a las variables $X$ e $Y$, los pares de valores $(x_i,y_j)$
observados en cada individuo de la muestra.

\begin{ejemplo}
En la figura la figura \ref{g:estatura-peso} aparece el diagrama de dispersión
correspondiente a una muestra de 30 individuos en los que se ha medido la estatura
en cm ($X$) y el peso en kg ($Y$). En este caso la forma de la nube
de puntos refleja una relación lineal entre la estatura y el peso.

\begin{figure}[h!]
  \centering
  \scalebox{0.75}{\input{regresion_lineal_simple/img/diagrama_dispersion_estatura_peso}}
  \caption{Diagrama de dispersión. El punto (179,85) indicado corresponde a un
  individuo de la muestra que mide 179 cm y pesa 85 Kg.}\label{g:estatura-peso}
\end{figure}
\end{ejemplo}

Según la forma de la nube de puntos del diagrama, se elige el modelo más
apropiado (figura~\ref{g:tiposrelaciones}), y se determinan los parámetros de dicho modelo para que la función
resultante se ajuste lo mejor posible a la nube de puntos.

\begin{figure}[h!]
\centering 
\subfigure[Sin relación.]{\scalebox{0.5}{\input{regresion_lineal_simple/img/diagrama_dispersion_sin_relacion}}}\qquad
\subfigure[Relación lineal.]{\scalebox{0.5}{\input{regresion_lineal_simple/img/diagrama_dispersion_relacion_lineal}}}\qquad
\subfigure[Relación polinómica.]{\scalebox{0.5}{\input{regresion_lineal_simple/img/diagrama_dispersion_relacion_parabolica}}}\\
\subfigure[Relación exponencial.]{\scalebox{0.5}{\input{regresion_lineal_simple/img/diagrama_dispersion_relacion_exponencial}}}\qquad
\subfigure[Relación logarítmica.]{\scalebox{0.5}{\input{regresion_lineal_simple/img/diagrama_dispersion_relacion_logaritmica}}}\qquad
\subfigure[Relación inversa.]{\scalebox{0.5}{\input{regresion_lineal_simple/img/diagrama_dispersion_relacion_inversa}}}\\
\caption{Diagramas de dispersión correspondientes a distintos tipos de relaciones
entre variables.} \label{g:tiposrelaciones}
\end{figure}

\clearpage

El criterio que suele utilizarse para obtener la función óptima, es que la distancia
de cada punto a la curva, medida en el eje Y, sea lo menor posible. A estas distancias se les
llama \emph{residuos} o \emph{errores} en $Y$ (figura~\ref{g:residuos}). La función
que mejor se ajusta a la nube de puntos será, por tanto, aquella que hace mínima la
suma de los cuadrados de los residuos.\footnote{Se elevan al cuadrado para evitar que en la suma se compensen los residuos positivos con los negativos.}

\begin{figure}[h!]
  \centering
  \scalebox{0.8}{\input{regresion_lineal_simple/img/residuos_y}}
  \caption{Residuos o errores en $Y$. El residuo correspondiente a un punto $(x_i,y_j)$
  es la diferencia entre el valor $y_j$ observado en la muestra, y el valor
  teórico del modelo $f(x_i)$, es decir, $e_{ij}=y_j-f(x_i)$.}\label{g:residuos}
\end{figure}

\subsubsection{Rectas de regresión}

En el caso de que la nube de puntos tenga forma lineal y optemos por explicar la
relación entre $X$ e $Y$ mediante una recta $y=a+bx$, los parámetros a
determinar son $a$ (punto de corte con el eje de ordenadas) y $b$ (pendiente de
la recta). Los valores de estos parámetros que hacen mínima la suma de
residuos al cuadrado, determinan la recta óptima. Esta recta se conoce como \emph{recta de
regresión de $Y$ sobre $X$} y explica la variable $Y$ en función de la variable
$X$. Su ecuación es
\[ y= \bar{y}+\frac{s_{xy}}{s_x^2}(x-\bar{x}),\]
donde $s_{xy}$ es un estadístico llamado \emph{covarianza} que mide el grado de relación lineal, y cuya fórmula es
\[s_{xy}=\frac{1}{n}\sum_{i,j} (x_i-\bar{x}) (y_j-\bar{y}) n_{ij}.\]

\begin{ejemplo}
En la figura~\ref{g:rectas-estatura-peso} aparecen las rectas de regresión de Estatura sobre Peso y de Peso sobre Estatura del ejemplo anterior.

\begin{figure}[h!]
  \centering
  \scalebox{0.8}{\input{regresion_lineal_simple/img/rectas_regresion}}
  \caption{Rectas de regresión de Estatura sobre Peso y de Peso sobre Estatura. Las rectas de regresión siempre se cortan en el punto de medias $(\bar x, \bar y)$}\label{g:rectas-estatura-peso}
\end{figure}
\end{ejemplo}

La pendiente de la recta de regresión de $Y$ sobre $X$ se conoce como
\emph{coeficiente de regresión de $Y$ sobre $X$}, y mide el incremento que sufrirá
la variable $Y$ por cada unidad que se incremente la variable $X$, según la recta.

Cuanto más pequeños sean los residuos, en valor absoluto, mejor se ajustará el modelo a la nube de
puntos, y por tanto, mejor explicará la relación entre $X$ e $Y$. Cuando todos
los residuos son nulos, la recta pasa por todos los puntos de la nube, y la
relación es perfecta. En este caso ambas rectas, la de $Y$ sobre $X$ y la de
$X$ sobre $Y$ coinciden (figura~\ref{g:dependenciafuncional}).

Por contra, cuando no existe relación lineal entre las variables, la recta de
regresión de $Y$ sobre $X$ tiene pendiente nula, y por tanto la
ecuación es $y=\bar y$, en la que, efectivamente no aparece $x$, o $x=\bar x$
en el caso de la recta de regresión $X$ sobre $Y$, de manera que ambas rectas
se cortan perpendicularmente (figura~\ref{g:independencialineal}).

\begin{figure}[htbp]
\centering 
\subfigure[Dependencia funcional lineal.] {\label{g:dependenciafuncional}
\scalebox{0.7}{\input{regresion_lineal_simple/img/rectas_dependencia_lineal_perfecta}}}\qquad
\subfigure[Independencia lineal.]{\label{g:independencialineal}
\scalebox{0.7}{\input{regresion_lineal_simple/img/rectas_independencia_lineal}}}
\caption{Distintos grados de dependencia. En el primer caso, la relación es perfecta
y los residuos son nulos. En el segundo caso no existe relación lineal y la
pendiente de la recta es nula.}
\end{figure}


\subsection{Correlación}
El principal objetivo de la regresión simple es construir un modelo funcional
$y=f(x)$ que explique lo mejor posible la relación entre dos variables $X$
(variable independiente) e $Y$ (variable dependiente) medidas en una misma
muestra. Generalmente, el modelo construido se utiliza para realizar
inferencias predictivas de $Y$ en función de $X$ en el resto de la población.
Pero aunque la regresión garantiza que el modelo construido es el mejor
posible, dentro del tipo de modelo elegido (lineal, polinómico, exponencial,
logarítmico, etc.), puede que aún así, no sea un buen modelo para hacer
predicciones, precisamente porque no haya relación de ese tipo entre $X$ e
$Y$. Así pues, con el fin de validar un modelo para realizar predicciones
fiables, se necesitan medidas que nos hablen del grado de dependencia entre $X$ e
$Y$, con respecto a un modelo de regresión construido. Estas medidas se conocen
como medidas de \emph{correlación}.

Dependiendo del tipo de modelo ajustado, habrá distintos tipos de medidas de
correlación. Así, si el modelo de regresión construido es una recta,
hablaremos de correlación lineal; si es un polinomio, hablaremos de correlación
polinómica; si es una función exponencial, hablaremos de correlación
exponencial, etc. En cualquier caso, estas medidas nos hablarán de lo bueno
que es el modelo construido, y como consecuencia, de si podemos fiarnos de las
predicciones realizadas con dicho modelo.

La mayoría de las medidas de correlación surgen del estudio de los residuos o
errores en $Y$, que son las distancias de los puntos del diagrama de
dispersión a la curva de regresión construida, medidas en el eje $Y$, tal y
como se muestra en la figura ~(\ref{g:residuos}). Estas distancias, son en
realidad, los errores predictivos del modelo sobre los propios valores de la
muestra.

Cuanto más pequeños sean los residuos, mejor se ajustará el modelo a la nube
de puntos, y por tanto, mejor explicará la relación entre $X$ e $Y$. Cuando
todos los residuos son nulos, la curva de regresión pasa por todos los puntos
de la nube, y entonces se dice que la relación es perfecta, o bien que existe
una dependencia funcional entre $X$ e $Y$ (figura~\ref{g:dependenciafuncional}).
Por contra, cuando los residuos sean grandes, el modelo no explicará bien la
relación entre $X$ e $Y$, y por tanto, sus predicciones no serán fiables
(figura~\ref{g:independencialineal}).


\subsubsection{Varianza residual}
Una primera medida de correlación, construida a partir de los residuos es la
\emph{varianza residual}, que se define como el promedio de los residuos al
cuadrado:
\[
s^2_{ry}=\frac{\sum_{i,j} e_{ij}^2 n_{ij}}{n}= \frac{\sum_{i,j} (y_j-f(x_i))^2
n_{ij}}{n}.
\]

Cuando los residuos son nulos, entonces $s^2_{ry}=0$ y eso indica que hay
dependencia funcional. Por otro lado, cuando las variables son independientes,
con respecto al modelo de regresión ajustado, entonces los residuos se
convierten en las desviaciones de los valores de $Y$ con respecto a su media, y se cumple
que $s^2_{ry}=s_y^2$. Así pues, se cumple que
\[  0 \leq s^2_{ry}\leq s_y^2. \]
Según esto, cuanto menor sea la varianza residual, mayor será la dependencia
entre $X$ e $Y$, de acuerdo al modelo ajustado. No obstante, la varianza tiene
como unidades las unidades de $Y$ al cuadrado, y eso dificulta su
interpretación.

\subsubsection{Coeficiente de determinación}
Puesto que el valor máximo que puede tomar la varianza residual es la varianza
de $Y$, se puede definir fácilmente un coeficiente a partir de la comparación
de ambas medidas. Surge así el \emph{coeficiente de determinación} que se
define como
\[
R^2=1-\frac{s^2_{ry}}{s_y^2}.
\]

Se cumple que
\[ 0\leq R^2\leq 1,\]
y además no tiene unidades, por lo que es más fácil de interpretar que la
varianza residual:
\begin{itemize}
\item $R^2=0$ indica que existe independencia según el
tipo de relación planteada por el modelo de regresión.
\item $R^2=1$ indica dependencia funcional.
\end{itemize}
Por tanto, cuanto mayor sea $R^2$, mejor será el modelo de regresión.

Si multiplicamos el coeficiente de determinación por 100, se obtiene el
porcentaje de variabilidad de $Y$ que explica el modelo de regresión. El
porcentaje restante corresponde a la variabilidad que queda por explicar y se
corresponde con el error predictivo del modelo. Así, por ejemplo, si tenemos
un coeficiente de determinación $R^2=0.5$, el modelo de regresión explicaría
la mitad de la variabilidad de $Y$, y en consecuencia, si se utiliza dicho
modelo para hacer predicciones, estas tendrían la mitad de error que si no se
utilizase, y se tomase como valor de la predicción el valor de la media de $Y$.

\subsubsection{Coeficiente de determinación lineal}
En el caso de que el modelo de regresión sea lineal, la fórmula del
coeficiente de determinación se simplifica y se convierte en
\[
r^2=\frac{s_{xy}^2}{s_x^2 s_y^2},
\]
que se conoce como \emph{coeficiente de determinación lineal}.

\subsubsection{Coeficiente de correlación}
Otra medida de dependencia bastante habitual es el \emph{coeficiente de
correlación}, que se define como la raíz cuadrada del coeficiente de
determinación:
\[
R=\pm\sqrt{1-\frac{s^2_{ry}}{s_y^2}},
\]
tomando la raíz del mismo signo que la covarianza.

La única ventaja del coeficiente de correlación con respecto al coeficiente de
determinación, es que tiene signo, y por tanto, además del grado de
dependencia entre $X$ e $Y$, también nos habla de si la relación es directa
(signo +) o inversa (signo -). Su interpretación es:
\begin{itemize}
\item $R=0$ indica independencia con respecto al tipo de relación planteada por el modelo de
regresión.
\item $R=-1$ indica dependencia funcional inversa.
\item $R=1$ indica dependencia funcional directa.
\end{itemize}
Por consiguiente, cuanto más próximo esté a -1 o a 1, mejor será el modelo de
regresión.

\subsubsubsection{Coeficiente de correlación lineal}
Al igual que ocurría con el coeficiente de determinación, cuando el modelo de
regresión es lineal, la fórmula del coeficiente de correlación se convierte en
\[
r=\frac{s_{xy}}{s_x s_y},
\]
y se llama \emph{coeficiente de correlación lineal}.

Por último, conviene remarcar que un coeficiente de determinación o de
correlación nulo, indica que hay independencia según el modelo de regresión
construido, pero puede haber dependencia de otro tipo. Esto se ve claramente en el ejemplo de  la figura~\ref{g:dependenciaparabolica}.

\begin{figure}[h!]
\centering \subfigure[Dependencia lineal débil.]
{\label{g:dependencialinealdebil}
\scalebox{0.7}{\input{correlacion/img/recta_regresion_relacion_parabolica}}}\qquad
\subfigure[Dependencia parabólica fuerte.] {\label{g:dependenciaparabolicafuerte}
\scalebox{0.7}{\input{correlacion/img/regresion_parabolica}}}
\caption{En la figura de la izquierda se ha ajustado un modelo lineal y se ha obtenido un
$R^2=0$, lo que indica que el modelo no explica nada de la relación entre $X$ e
$Y$, pero no podemos afirmar que $X$ e $Y$ son independientes. De hecho, en la
figura de la derecha se observa que al ajustar un modelo parabólico, $R^2=0.97$,
lo que indica que casi hay una dependencia funcional parabólica entre $X$ e $Y$.}
\label{g:dependenciaparabolica}
\end{figure}

\subsubsection{Fiabilidad de las predicciones}
Aunque el coeficiente de determinación o de correlación nos hablan de la bondad de un modelo de regresión, no es el único dato que hay que tener en cuenta a la hora de hacer predicciones.

La fiabilidad de las predicciones que hagamos con un modelo de regresión depende de varias cosas:
\begin{itemize}
\item El coeficiente de determinación: Cuando mayor sea, menores serán los errores predictivos y mayor la fiabilidad de las predicciones.
\item La variablidad de la población: Cuanto más variable es una población, más difícil es predecir y por tanto menos fiables serán las predicciones del modelo.
\item El tamaño muestral: Cuanto mayor sea, más información tendremos y, en consecuencia, más fiables serán las predicciones. 
\end{itemize} 

Además, hay que tener en cuenta que un modelo de regresión es válido para el
rango de valores observados en la muestra, pero fuera de ese rango no tenemos
información del tipo de relación entre las variables, por lo que no deberíamos
hacer predicciones para valores que estén lejos de los observados en la
muestra.

\clearpage
\newpage



\section{Ejercicios resueltos}
\begin{enumerate}[leftmargin=*]
\item Se han medido dos variables $A$ y $B$ en 10 individuos
obteniendo los siguientes resultados:
\[
\begin{array}{c|cccccccccc}
A& 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 \\
\hline 
B & 2 & 5 & 8 & 11 & 14 & 17 & 20 & 23 & 26 & 29
\end{array}
\]

Se pide:

\begin{enumerate}
\item  Crear las variables $A$ y $B$ e introducir estos datos.
\item  Dibujar el diagrama de dispersión correspondiente.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficos->Dispersión...}, elegir la opción \opcion{simple} y  hacer click sobre el botón
\boton{Definir}. 
\item Seleccionar la variable \variable{B} en el campo \opcion{Eje Y} del cuadro de diálogo. \item Seleccionar la
variable \variable{A} en el campo \opcion{Eje X} del cuadro de diálogo y hacer click sobre el botón \boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

En vista del diagrama, ¿qué tipo de modelo crees que explicará mejor la relación entre el A y B?

\item Calcular la recta de regresión de $B$ sobre $A$.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Analizar->Regresión->Lineal...}.
\item Seleccionar la variable \variable{B} en el campo \opcion{Dependiente} del cuadro de diálogo.
\item Seleccionar la variable \variable{A} en el campo \opcion{Independiente} del cuadro de diálogo y hacer click sobre
el botón \boton{Aceptar}.
\item Para escribir la recta, observaremos en la ventana de resultados obtenida, la tabla denominada
\texttt{Coeficientes}, y en la columna \texttt{B} de los \texttt{Coeficientes no estandarizados}, encontramos en la
primera fila la \texttt{constante} de la recta y en la segunda la \texttt{pendiente}.
\end{enumerate}}
\end{indicacion}

\item Dibujar dicha recta sobre el diagrama de dispersión.
\begin{indicacion}{
\begin{enumerate}
\item Editar el gráfico realizado anteriormente haciendo un doble click sobre él.
\item Seleccionar los puntos haciendo click sobre alguno de ellos.
\item Seleccionar el menú \menu{Gráfico->Añadir elemento de gráfico->Linea de ajuste total} (También se podría usar
en lugar del menu, la barra de herramientas)
\item Cerrar el editor de gráficos, cerrando la ventana.
\end{enumerate}}
\end{indicacion}

\item Calcular la recta de regresión de $A$ sobre $B$ y dibujarla sobre el correspondiente diagrama de dispersión.
\begin{indicacion}{
Repetir los pasos de los apartados anteriores pero escogiendo como variable \opcion{Dependiente} la variable
\variable{A}, y como variable \opcion{Independiente} la variable \variable{B}}
\end{indicacion}

\item ¿Son grandes los residuos? Comentar los resultados.
\end{enumerate}

\item  En una licenciatura se quiere estudiar la relación entre el número medio de horas de estudio diarias y el número
de asignaturas suspensas. Para ello se obtuvo la siguiente muestra:
\[
\begin{array}{cccccccc}
\text{Horas} & \text{Suspensos} &  & \text{Horas} & \text{Suspensos} & & \text{Horas} & \text{Suspensos}  \\
\cline{1-2}\cline{4-5}\cline{7-8}
3.5 & 1 & & 2.2 & 2 & & 1.3 & 4 \\
0.6 & 5 & & 3.3 & 0 & & 3.1 & 0 \\
2.8 & 1 & & 1.7 & 3 & & 2.3 & 2 \\
2.5 & 3 & & 1.1 & 3 & & 3.2 & 2 \\
2.6 & 1 & & 2.0 & 3 & & 0.9 & 4 \\
3.9 & 0 & & 3.5 & 0 & & 1.7 & 2 \\
1.5 & 3 & & 2.1 & 2 & & 0.2 & 5 \\
0.7 & 3 & & 1.8 & 2 & & 2.9 & 1 \\
3.6 & 1 & & 1.1 & 4 & & 1.0 & 3 \\
3.7 & 1 & & 0.7 & 4 & & 2.3 & 2 \\
\end{array}
\]

Se pide:
\begin{enumerate}
\item  Crear las variables \variable{horas estudio} y \variable{suspensos} e introducir estos datos.

\item  Calcular la recta de regresión de \variable{suspensos} sobre \variable{horas estudio} y dibujarla.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Analizar->Regresion->Lineal...}.
\item Seleccionar la variable \variable{suspensos} en el campo \campo{Dependiente} del cuadro de diálogo.
\item Seleccionar la variable \opcion{horas estudio} en el campo \campo{Independiente} del cuadro de diálogo y hacer
click sobre el botón \boton{Aceptar}.
\item Para escribir la recta, observaremos en la ventana de resultados obtenida, la tabla denominada
\resultado{Coeficientes}, y en la columna \resultado{B} de los \resultado{Coeficientes no estandarizados}, encontramos
en la primera fila la \resultado{constante} de la recta y en la segunda la \resultado{pendiente}.
\item Seleccionar el menú \menú{Gráficos->Dispersión...}, elegir la opción \opcion{simple} y hacer click sobre el
botón \boton{Definir}. 
\item Seleccionar la variable \variable{suspensos} en el campo \campo{Eje Y} del cuadro de diálogo. 
\item Seleccionar la variable \variable{horas estudio} en el campo \campo{Eje X} del cuadro de diálogo y hacer click
sobre el botón \boton{Aceptar}.
\item Editar el gráfico realizado anteriormente haciendo un doble click sobre él.
\item Seleccionar los puntos haciendo click sobre alguno de ellos.
\item Seleccionar el menú \menu{Gráfico->Añadir elemento de gráfico->Linea de ajuste total} (También se podría usar en
lugar del menu, la barra de herramientas) 
\item Cerrar el editor de gráficos, cerrando la ventana.
\end{enumerate}}
\end{indicacion}

\item Indicar el coeficiente de regresión de \variable{suspensos} sobre \variable{horas estudio}. ¿Cómo lo
interpretarías?
\begin{indicacion}{
El coeficiente de regresión es la pendiente de la recta de regresión, que este caso vale $1.23$ e indica
que por cada hora de estudio adicional se obtienen $1.23$ suspensos menos.}
\end{indicacion}

\item La relación lineal entre estas dos variables, ¿es mejor o peor que la del ejercicio anterior? Comentar los
resultados a partir las gráficas de las rectas de regresión y sus residuos.
\begin{indicacion}{
La relación lineal entre estas dos variables es peor que la del ejercicio anterior, pues en este caso hay residuos.}
\end{indicacion}

\item Calcular los coeficientes de correlación y de determinación lineal. ¿Es un buen modelo la recta de regresión?
¿Qué porcentaje de la variabilidad del número de suspensos está explicada por el modelo?
\begin{indicacion}{
Observaremos en la ventana de resultados obtenida la tabla denominada \resultado{Coeficientes}, y en la columna
\resultado{B} del \resultado{Resumen del modelo} encontramos el valor del coeficiente de correlación \resultado{R} y el
del coeficiente de determinación \resultado{R cuadrado}.}
\end{indicacion}

\item Utilizar la recta de regresión para predecir el número de suspensos correspondiente a 3 horas de estudio diarias.
¿Es fiable esta predicción?
\begin{indicacion}{
\begin{enumerate}
\item Crear una nueva variable \variable{valores horas} e introducir los valores de las horas de estudio para los que
queremos predecir.
\item Seleccionar el menú \texttt{Transformar->Calcular...}.
\item Introducir el nombre de la nueva variable \variable{prediccion suspensos} en el campo \campo{Variable de destino}
del cuadro de diálogo.
\item Introducir la ecuación de la recta en el campo \campo{Expresión numérica}, utilizando los coeficientes calculados
anteriormente y la variable \variable{valores horas} y hacer click sobre el botón \boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

\item Según el modelo lineal, ¿cuántas horas diarias tendrá que estudiar como mínimo un alumno si quiere aprobarlo
todo?.
\begin{indicacion}{
Seguir los mismos pasos de los apartados anteriores, pero escogiendo como variable dependiente \variable{horas estudio},
y como independiente \variable{suspensos}}
\end{indicacion}
\end{enumerate}

\item Después de tomar un litro de vino se ha medido la concentración de alcohol en la sangre en distintos instantes,
obteniendo:
\[
\begin{array}{|c|c|c|c|c|c|c|c|}
\hline 
\mbox{Tiempo después (minutos)} & 30 & 60 & 90 & 120 & 150 & 180 & 210\\ 
\hline
\mbox{Concentración (gramos/litro)} & 1.6 & 1.7 & 1.5 & 1.1 & 0.7 & 0.2 & 2.1\\
\hline
\end{array}
\]

Se pide:
\begin{enumerate}
\item Crear las variables \variable{tiempo} y \variable{alcohol} e introducir estos datos.
\item Calcular el coeficiente de correlación lineal e interpretarlo.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Analizar->Correlaciones->Bivariadas...}.
\item Seleccionar ambas variables en el campo \campo{Variables} del cuadro de diálogo y hacer click sobre el botón
\boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

\item  Dibujar el diagrama de dispersión junto con la recta ajustada correspondiente a \variable{alcohol} sobre
\variable{tiempo}. ¿Existe algún individuo con un residuo demasiado grande? Si es así, eliminar dicho individuo de la
muestra y volver a calcular el coeficiente de correlación. ¿Ha mejorado el modelo?
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficos->Dispersión...}, elegir la opción \opcion{simple} y  hacer click sobre el
botón \boton{Definir}. 
\item Seleccionar la variable \variable{alcohol} en el campo \campo{Eje Y} del cuadro de diálogo. 
\item Seleccionar la variable \variable{tiempo} en el campo \campo{Eje X} del cuadro de diálogo y hacer click sobre el
botón \texttt{Aceptar}.
\item Editar el gráfico realizado anteriormente haciendo un doble click sobre él.
\item Seleccionar los puntos haciendo click sobre alguno de ellos.
\item Seleccionar el menú \menu{Gráfico->Añadir elemento de gráfico->Linea de ajuste total} (También se podría usar
en lugar del menu, la barra de herramientas)
\item Cerrar el editor de gráficos, cerrando la ventana.
\item Si existe algún individuo con un residuo demasiado grande, ir a la ventana del \menu{Editor de datos}, y
eliminarlo.
\item Repetir los pasos del apartado anterior.
\end{enumerate}}
\end{indicacion}

\item  Si la concentración máxima de alcohol en la sangre que permite la ley para poder conducir es $0.5$ g/l, ¿cuánto
tiempo habrá que esperar después de tomarse un litro de vino para poder conducir sin infringir la ley? ¿Es fiable esta
predicción?
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Analizar->Regresión->Lineal...}.
\item Seleccionar la variable \variable{tiempo} en el campo \campo{Dependiente} del cuadro de diálogo.
\item Seleccionar la variable \variable{alcohol} en el campo \campo{Independiente} del cuadro de diálogo y hacer click
sobre el botón \boton{Aceptar}.
\item Para escribir la recta, observaremos en la ventana de resultados obtenida, la tabla denominada
\resultado{Coeficientes}, y en la columna \resultado{B} de los \resultado{Coeficientes no estandarizados}, encontramos
en la primera fila la \resultado{constante} de la recta y en la segunda la \resultado{pendiente}.
\item Crear una nueva variable \variable{valores alcohol} e introducir los valores que queremos estudiar.
\item Seleccionar el menú \menu{Transformar->Calcular...}.
\item Introducir el nombre de la nueva variable \varible{prediccion tiempo} en el campo \campo{Variable de destino}
del cuadro de diálogo.
\item Introducir la ecuación de la recta en el campo \campo{Expresión numérica}, utilizando los coeficientes citados
anteriormente y la variable \variable{valores alcohol} y hacer click sobre el botón \boton{Aceptar}.
\end{enumerate}}
\end{indicacion}
\end{enumerate}

\end{enumerate}


\section{Ejercicios propuestos}
\begin{enumerate}[leftmargin=*]
\item  Se determina la pérdida de actividad que experimenta un medicamento desde el momento de su fabricación a lo
largo del tiempo, obteniéndose el siguiente resultado:
\begin{center}
\begin{tabular}{|c|c|c|c|c|c|}
\hline 
Tiempo (en años) & 1 & 2 & 3 & 4 & 5 \\ 
\hline 
Actividad restante (\%) & 96 & 84 & 70 & 58 & 52 \\ 
\hline
\end{tabular}
\end{center}
Se desea calcular:
\begin{enumerate}
\item  La relación fundamental (recta de regresión) entre actividad restante y tiempo transcurrido.
\item ¿En qué porcentaje disminuye la actividad cada año que pasa?
\item ¿Cuándo tiempo debe pasar para que el fármaco tenga una actividad del 80\%? ¿Cuándo será nula la actividad?
¿Son igualmente fiables estas predicciones?
\end{enumerate}

\item Al realizar un estudio sobre la dosificación de un cierto medicamento, se trataron 6 pacientes con dosis diarias
de 2 mg, 7 pacientes con 3 mg y otros 7 pacientes con 4 mg. De los pacientes tratados con 2 mg, 2 curaron al cabo de 5
días, y 4 al cabo de 6 días. De los pacientes tratados con 3 mg diarios, 2 curaron al cabo de 3 días, 4 al cabo de 5
días y 1 al cabo de 6 días. Y de los pacientes tratados con 4 mg diarios, 5 curaron al cabo de 3 días y 2 al cabo de 5
días. Se pide: 
\begin{enumerate}
\item Calcular la recta de regresión del tiempo de curación con respecto a la dosis suministrada.
\item Calcular los coeficientes de regresión. Interpretar los resultados.
\item  Determinar el tiempo esperado de curación para una dosis de 5 mg diarios. ¿Es fiable esta predicción?
\item ¿Qué dosis debe aplicarse si queremos que el paciente tarde 4 días en curarse? ¿Es fiable la predicción?
\end{enumerate}

\end{enumerate}
